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Предлагается метод организации системы поисковой рекламы, основанный на теории нечетких множеств, для выбора рекла- 
мных объявлений сайтов, релевантных поисковому запросу пользователя, при соблюдении ограничений рекламодателя. 


Количество пользователей сети Интернет неиз- 
менно растёт год от года. При этом основная нави- 
гация в Интернете, как и все последние годы, осу- 
ществляется непосредственно с использованием 
поисковых машин. Но, несмотря на то, что на се- 
годняшний момент существует уже достаточное 
количество поисковых систем, они далеко не всег- 
да способны удовлетворить информационные по- 
требности пользователей. Как правило, это связано 
с несовершенством алгоритмов ранжирования, в 
соответствии с которыми поисковики определяют 
очередность, в которой пользователю будут выда- 
ны результаты поиска. И причиной этому является 
не неправильно построенные те или иные модели, 
или недостаточно отлаженные различные механиз- 
мы поисковиков. Основной причиной несовер- 
шенства поисковых систем является то, что они не 
понимают семантику самих запросов пользовате- 
лей. Они могут при помощи сложнейшего алгорит- 
ма за секунды найти необходимые ключевые слова 
в миллионах документах, однако неспособны со- 
поставить эти данные с контекстом и смыслом са- 
мого запроса. Таким образом, в настоящее время 
дальнейшее совершенствование систем поиска в 
Интернете связано, прежде всего, с усилением се- 
мантической составляющей поиска, что позволило 
бы пользователям находить более релевантные до- 
кументы, а не просто страницы, содержащие иско- 
мые ключевые слова [1]. 

Концепция Семантической паутины (8етап1іс 
\ѴеЬ) существует ещё с середины 90-х гг. XX в. Под 
данным термином подразумевается надстройка над 
существующей Всемирной паутиной (\Ѵ\Ѵ\Ѵ), ко- 
торая призвана сделать размещённую в сети ин- 
формацию более понятной для компьютеров, а, 
следовательно, и для поисковых систем. В соответ- 
ствии с данной концепцией, в сети Интернет каж- 
дый ресурс на человеческом языке должен быть 
снабжён описанием, понятным компьютеру. Одна- 
ко данный подход всё ещё не имеет должного рас- 
пространения и внедрения, так как по большей ча- 
сти предполагает отказ от существующих моделей 
строения Всемирной Сети и значительного изме- 
нения её структуры [2]. 

Таким образом, в настоящее время практически 
не существует эффективных механизмов, позво- 
ляющих программным образом найти в Сети иско- 
мую информацию, учитывая семантику самого за- 
проса. В результате, разработчиками поисковых 
систем стали предприниматься попытки допол- 


нить традиционные результаты поиска сайтами, 
которые были предварительно найдены по данно- 
му запросу другими пользователями системы и от- 
мечены как особо релевантные. Для реализации 
подобной модели в результатах поиска пользовате- 
лям предлагалось отметить те или иные документы 
как особо значимые и удовлетворившие информа- 
ционную потребность пользователя по данному 
поисковому запросу. Такая схема позволяла допол- 
нить машинные результаты поиска тем необходи- 
мым «смыслом», отсеяв большинство нерелевант- 
ных документов. Однако такая модель работы тре- 
бовала, прежде всего, колоссальный объём нако- 
пленных пользовательских данных и предпочте- 
ний, ведь фактически, каждому поисковому запро- 
су предварительно вручную должны были быть со- 
поставлены определенные результаты поиска. По- 
мимо этого, результаты поиска, построенные на 
предпочтениях других пользователей, требовали и 
большого количества самих пользователей, заинте- 
ресованных в пополнении данной базы знаний по- 
исковика, а такая заинтересованность по большей 
части отсутствовала. В итоге такая система «поль- 
зовательских» результатов поиска стала использо- 
ваться преимущественно лишь при узконаправлен- 
ном тематическом поиске, где возможное количе- 
ство результатов невелико, и ограничено [3]. 

Тем не менее, со временем появилась новая кон- 
цепция для расширения результатов поиска. Наряду 
со стандартными результатами поиска, появились 
дополнительные результаты - «спонсорские ссылки» 
(сайты). Эти сайты также можно считать результата- 
ми поиска по определённому запросу пользователя, 
однако если традиционные результаты поиска выби- 
раются поисковой системой на основе некоторых 
собственных критериев и алгоритмов, то «спонсор- 
ские» - на основе данных от самого владельца этого 
сайта. Т. е. сам владелец сайта или его доверенное ли- 
цо может внести в поисковую систему информацию о 
том, каким поисковым запросам будет релевантен его 
сайт. Таким образом, составляется ряд таких «рекла- 
мных» объявлений, представляющих собой ссылку 
на сайт и его краткое описание. Если в итоге пользо- 
ватель перейдёт по такому объявлению - то рекламо- 
датель произведёт некоторые финансовые отчисле- 
ния за такой переход в пользу поисковой системы. 
Именно за счёт этого появляется заинтересованность 
владельцев сайтов в том, чтобы как можно точнее 
описать свой ресурс с точки зрения соответствия тем 
или иным поисковым запросам. В итоге поисковая 
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система накапливает базу данных сайтов и правил со- 
ответствия их поисковым запросам, которую по- 
стоянно пополняют рекламодатели, и которая будет 
полезна как рекламодателям, так и самим пользова- 
телям поисковика в качестве дополнительных ре- 
зультатов поиска. Система, организующая показ та- 
ких вот рекламных результатов поиска, называется 
«системой поисковой рекламы». 

В общем виде современная система поисковой 
рекламы организована следующим образом. Име- 
ется ряд пользователей поисковой системы, каж- 
дый из которых характеризуется набором поиско- 
вых запросов, которые он вводил в системе, исто- 
рией сайтов, выбранных из результатов поиска и 
историей посещенных сайтов. Также существует 
ряд рекламодателей с множеством рекламных объя- 
влений. Каждое рекламное объявление представля- 
ет собой ссылку на сайт и его краткое текстовое 
описание или графический баннер. Для каждого 
объявления задаются или наборы ключевых фраз - 
словосочетаний на естественном языке, или набо- 
ры сайтов, где данное объявление будет показано. 
Каждая ключевая фраза может состоять из одного 
или нескольких слов. Также среди ключевых фраз 
могут быть указаны, так называемые стоп-фразы, 
или по-другому анти-ключевые фразы. Соответ- 
ственно для того, чтобы объявление было показано 
по тому или иному поисковому запросу, он должен 
содержать одну из ключевых фраз этого объявления 
и не содержать анти-ключевых фраз. Каждое из 
объявлений характеризуется определенной стоимо- 
стью, которую выбирает сам рекламодатель. В слу- 
чае, если пользователь перейдёт на сайт по данному 
рекламному объявлению, эта стоимость будет спи- 
сана со счета рекламодателя [4, 5]. 

При организации системы поисковой рекламы 
одной из основных задач, которые возникают ещё 
на стадии проектирования, является то, каким об- 
разом из множества спонсорских объявлений си- 
стемы будет выбрано то подмножество объявле- 
ний, которое будет релевантно конкретному пои- 
сковому запросу пользователя. При этом выбран- 
ное множество объявлений (порядка 5-7 штук) 
должно также учитывать историю запросов и исто- 
рию посещённых сайтов пользователем, а также 
ограничения самих объявлений. Эти ограничения 
выдвигаются самим рекламодателем, и могут быть 
связаны со стоимостью показа/перехода по объя- 
влению, ограничениями на суммарный показ 
объявления за день и т. д. Рассмотрим один из спо- 
собов решения данной задачи. 

Искомое множество подходящих рекламных 
объявлений (релевантных запросу, а также допол- 
нительным факторам и ограничениям задачи) 
можно определить как нечеткое. Следовательно, 
для решения поставленной задачи можно приме- 
нить аппарат, используемый в теории нечетких 
множеств и нечеткой логики. Рассмотрим несколь- 
ко упрощенный пример системы поисковой рекла- 
мы, основанной на текстовых объявлениях с раз- 


мещением рекламы в результатах поиска на основе 
ключевых фраз. 

Модель данной предметной области М включа- 
ет множество рекламных объявлений системы 
0={о,}, текущий запрос пользователя /і, историю 
запросов пользователя Іі, историю выбранных 
пользователем сайтов /ѵ, историю посещенных 
сайтов Ір, а также информацию от пользователей с 
аналогичными предпочтениями А и ограничения 
рекламодателей К: 

М =< 0,/г,І2,Іѵ,Ір,А,К > . 

Каждое объявление системы можно предста- 
вить следующим образом: 

О, =< Ко, )Ло, )Ло , ), ѵ(о , ), { Д (р )} ,{М„ (ч )}. •Кч )> Р(Ч ) >, 

где И(о,) - заголовок объявления о„ ?(о,) - текст 
объявления о„ /(о ,) - ссылка (игі-адрес) объявления 
о„ ѵ(о,) - видимый игі-адрес объявления о„ Д,(о ; ) - 
ключевая фраза объявления о„{ак т {о) - анти-клю- 
чевая фраза объявления о„ До,) - стоимость объя- 
вления о„ р(оі) - максимальное количество показов 
объявления о,. 

Каждый поисковый запрос пользователя Д 
представляет собой некоторую фразу, соответ- 
ственно история запросов представляет собой мно- 
жество запросов, вводимых пользователем ранее: 

* = {Д*}. 

История выбранных пользователем сайтов из 
результатов поиска, как и история посещённых 
сайтов представляет собой множество ссылок (игі- 
адресов) сайтов: 

Іѵ = {/,}, Ір = {1,}. 

В терминах теории нечетких множеств предста- 
вим совокупность подходящих объявлений систе- 
мы (релевантных запросу и дополнительным фак- 
торам) как нечеткое множество Ор={<о,р 0р (о)>}, 
где о является элементом универсального множе- 
ства или универсума О, а /и 0р (о) - функция принад- 
лежности. Затем необходимо будет из этого множе- 
ства выбрать некоторое количество наиболее под- 
ходящих объявлений Оп, которые и будут показа- 
ны в результатах поиска. Для этого определим Оп, 
как подмножество множества Ор а-уровня [6]: 

ОРа = \о<еО\ р 0р (о) >а\, Ѵо е О, 

где ае [0, 1] и выбирается в соответствии с опытны- 
ми данными системы. 

Для представленных множеств будет справед- 
лива следующая запись: 

Оп с Ор а (^Ор с О. 

При этом мощность множества Оп не может 
быть больше максимального количества показы- 
ваемых в системе объявлений Ы оЬ , т. е.: 

I Оп \<М оЬ , 

где выбирается в соответствии с опытными дан- 
ными системы и варьируется в целочисленном ин- 
тервале [5,7], т. е. Л(, 4 е[5,7]. 
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Чтобы выбрать искомые 5-7 объявлений для по- 
каза в системе (подмножество Ой), будет достаточ- 
но выбрать из Ор это количество объявлений с мак- 
симальными значениями функции принадлежно- 
сти. 

Таким образом, для каждого объявления нужно 
определить значение функции принадлежности 
множеству подходящих объявлений, т. е. степень 
того, насколько объявление соответствует инфор- 
мационным потребностям данного пользователя и 
ограничениям рекламодателя. Выделим основные 
признаки (факторы), по которым будет опреде- 
ляться принадлежность объявления множеству Ор: 

1. Соответствие поискового запроса ключевым 
фразам объявления. 

2. Учёт истории запросов данного пользователя в 
системе. 

3. Учёт сайтов, выбранных пользователем из ре- 
зультатов поиска. 

4. Учёт сайтов, посещенных пользователем. 

5. Учёт сайтов, посещаемых пользователями с 
аналогичными интересами/запросами. 

6. Ценообразование объявления. 

7. Частота показа объявления. 

На рисунке приведена схема зависимости сте- 
пени принадлежности объявления множеству под- 
ходящих объявлений от различных факторов. 

По каждому признаку С к , к= 1,7 определяется 
степень соответствия объявлений множеству Ор, 
т. е. формируется своя функция ц 0к (о) принадлеж- 
ности объявлений множеству подходя щ их объя- 
влений. Можно рассматривать признаки как кри- 
терии, по которым оценивается, насколько объя- 
вление является подходящим. Тогда интегральная 
оценка может определяться на основе методов 


свертывания критериев. Существуют различные 
методы свертывания. В случае «жесткой» поста- 
новки задачи («все или ничего») используются пра- 
вила агрегации конъюнктивного или дизъюнктив- 
ного типа, которым соответствуют операции тіп 
или тах, выполняемые над функциями принад- 
лежности частных критериев. Если же стратегией 
интегральной оценки является компромисс, то ис- 
пользуются различные операции осреднения [7]. 

В данном случае критерии (признаки) дополня- 
ют друг друга, причем важность их различна. Поэ- 
тому принадлежность объявлений множеству Ор 
будем определять по формуле выпуклой комбина- 
ции нечетких множеств [7] : 

Иор (о) = Х^ ' Чс (о), X ^ 

1=1 І =1 

где и >, - вес /-го признака. Веса признаков опреде- 
ляются с использованием метода «парных сравне- 
ний». 

Функции принадлежности по различным приз- 
накам строятся различными способами. Рассмо- 
трим формирование функции принадлежности по 
признаку «Соответствие поискового запроса клю- 
чевым фразам объявления», как самого важного, 
т. е. имеющего наибольший вес. 

Рассматриваемый признак сам является состав- 
ным, т. е. принадлежность объявления множеству 
Ор по данному признаку при отсутствии в поиско- 
вом запросе стоп-фраз объявления, складывается 
из степеней соответствия поискового запроса Д 
каждой из ключевых фраз. В случае нахождения в 
поисковом запросе Д хотя бы одной из стоп-фраз 
множества {[аЦ, это объявление признаётся нере- 
левантным и исключается из дальнейшего рассмо- 
трения. В противном случае следует анализ пои- 
скового запроса на соответствие ключевым фра- 



Рисунок. Факторы, влияющие на принадлежность объявления множеству подходящих объявлений 
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зам. Обозначим множество подходящих объявле- 
ний, определяемых по у'-ой ключевой фразе, т.е. по 
соответствию /і и Д, через Од. Тогда множество 
подходящих объявлений Од, определяемое по всем 
ключевым фразам, зададим как объединение мно- 
жеств Од.: 

О/к = ^ Од 2 ^ ■■■> 

т. е. функция принадлежности определяется с по- 
мощью операции шах: 

АЧ (о) = тах 


1 >0, если к-е слово фразы Д. есть в запросе полностью; 
■0,9, если к-е слово фразы Д есть в запросе не полностью; 
-0, 2, если к - го слова фразы Д нет в запросе. 


1 ,0, если позиция к-то слова Д совпадает с позицией в 
запросе; 

0,9, если позиция к-то слова Д соответствует позиции в 

е,. = 

ч инверсном порядке; 

—0, 2, если позиция к-то слова Д не совпадает с позицией 
в запросе. 


Для определения функции ц 0 (о) необходимо 
для каждого объявления сравнить поисковый за- 
прос /г и ключевую фразу /кіо). Функцию ц 0 (о), 

отражающую степень соответствия запроса ключе- 
вой фразе, зададим аналитически следующим вы- 
ражением: 

АѴ = тах (°’ І' Іа ' Рк : )> 

1 п к = 1 

где п - количество слов запроса^, - коэффици- 
ент, определяющий степень совпадения к- го слова 
ключевой фразы Д, и запроса; р к , - коэффициент, 
определяющий степень соответствия позиции к-то 
слова ключевой фразы Д по отношению к запросу. 
Коэффициенты е к] и р к] определяются по следую- 
щим формулам: 


В результате, применяя данные выражения для 
каждой из ключевых фраз объявления, можно рас- 
считать степень соответствия объявления текуще- 
му поисковому запросу по критерию «Соответ- 
ствие поискового запроса ключевым фразам объя- 
вления». Аналогичным образом определяются 
функции принадлежности множества подходящих 
объявлений по другим признакам. 

В целом, использование вышеописанного под- 
хода при создании алгоритма поиска подходящего 
объявления в системе поисковой рекламы позво- 
ляет в рамках одной модели совмещать самые раз- 
ные факторы, от которых зависит релевантность 
объявлений поисковым запросам и различного ро- 
да ограничениям. При этом каждому из факторов 
может быть определён свой весовой коэффициент, 
что позволяет легко корректировать степень влия- 
ния этих факторов на конечный результат. 
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